Air BnB à Paris

Charles Picard
Mathieu Giardini
David Boucher

Air BnB à Paris

Les données Air BnB

Exemple airbnb

Nettoyage du fichier csv

data airbnb

Les monuments de Paris

adresse.data.gouv.fr
Monuments parisiens

Les gares et stations de métro/RER

Transports à Paris

Les avis des locataires sur les logements

Fabrication des quartiers

QGIS

Premiers modèles

Densité des prix

Densite-prix

Densite-prix

Densite-prix

Densite-prix

Quelques résultats sur ces premiers modèles

Indicateur LM GLM RF
Average IB error 0.00 1.35 0.27
\(\sigma\) IB error (RMSE) 43.41 32.32 37.79
\(R^2_a\) 0.52 0.73 0.64
Average OB error 0.51 0.68 0.51
\(\sigma\) OB error (RMSE) 36.75 44.18 36.75

Choix des variables

A partir du random forest, nous avons déterminé l’importance des variables avec deux méthodes :

On a obtenu les graphiques suivants…

Importance des variables

Importance des variables (Mean decrease accuracy)

Importance des variables (Mean decrease accuracy)

Importance des variables (Mean Decrease GINI

Importance des variables (Mean Decrease GINI

Sélection des variables

Les 9 variables les plus importantes (par croisement des deux) que nous avons choisies :

Régressions linéaires avec les 9 variables sélectionnées

Indicateur LM1 LM2
Average IB error 0.0000000 0.0000000
\(\sigma\) IB error (RMSE) 44.7820917 44.7824626
\(R^2_a\) 0.4882702 0.4882617
Average OB error 0.6255231 0.6232294
\(\sigma\) OB error (RMSE) 45.7526416 45.7536759

Régressions log linéaires avec les 9 variables sélectionnées

Indicateur GLM1 GLM2
Average IB error 1.1819208 1.1819203
\(\sigma\) IB error (RMSE) 4.3802243 4.3799825
\(R^2_a\) 0.9950697 0.9950707
Average OB error 0.7347406 0.7347344
\(\sigma\) OB error (RMSE) 47.4262325 47.4262531

Random forest

Indicateur RF
Average IB error -0.0129354
\(\sigma\) IB error (RMSE) 37.7903014
\(R^2_a\) 0.6368411
Average OB error 0.2455550
\(\sigma\) OB error (RMSE) 36.7244688

Modèle de gradient boosting d’arbre de régression

Résultats de gradient boosting

Indicateur GB1 GB2 GB3
Average IB error 0.0132347 0.0182773 0.0090789
\(\sigma\) IB error (RMSE) 40.7149516 40.4881667 38.4621048
\(R^2_a\) 0.5770005 0.5816997 0.6225164
Average OB error 0.5295264 0.5157737 0.4467081
\(\sigma\) OB error (RMSE) 40.7678482 40.6450388 39.5790871

Comparaison des 3 types de modèles avec les 9 variables sélectionnées

Résumé des résultats

Indicateur GLM2 RF1 GB3
Average IB error 1.1819203 0.2480759 0.0090789
\(\sigma\) IB error (RMSE) 4.3799825 39.5490624 38.4621048
\(R^2_a\) 0.9950707 0.6008635 0.6225164
Average OB error 0.7347344 0.3376634 0.4467081
\(\sigma\) OB error (RMSE) 47.4262531 39.2330848 39.5790871

Nous avons incorporé dans notre application Shiny le prix pour chacun des 3 modèles.